【速報】Amazon EMR Serverless (Preview)が発表されました! #reinvent
データアナリティクス事業本部コンサルティングチームの石川です。日本時間2021年12月1日深夜のAWS re:Invent 2021のAdam Selipskyさんのキーノートにて、Amazon EMR Serverlessが発表されました。 EMR Serverlessは、従来のようなクラスターをプロビジョニングすることなく、Apache Spark、Hive、Prestoなどのオープンソースフレームワークを使用して構築されたアプリケーションの実行を可能とし、利用費は使用されている場合のみ支払うサービスです。
Amazon EMR Serverless の特長
よりシンプルなエクスペリエンスの提供
Amazon EMRクラスターの設定や最適化、セキュリティの確保をすることなく、構築されたアプリケーションを数回のクリックで実行することができます。
使用量に応じた支払い
EMR Serverlessは、アプリケーションが必要とするコンピュートリソースとメモリーリソースを自動的にプロビジョニングおよびスケーリングし、お客様は使用したリソースに対してのみ料金を支払うことになります。
クラスタのサイジングやプロビジョニングは不要
EMR Serverlessは、リクエストの処理に必要なコンピュートリソースとメモリーリソースを自動的に決定してプロビジョニングし、変化する要件に基づいて処理の各段階でリソースをスケールアップ/ダウンします。
ユースケース
EMR Serverlessは、プロビジョニングやサイジングなどを簡単に扱いたい場合に効果的です。
データパイプライン
従来は、クラスターを開始〜ジョブを実行〜ジョブを停止〜クラスターを停止の一連のフロー以外にクラスタのサイジングやインフラ設定・保守、運用後のクラスタのサイジングの見直しなど考えなければなりません。
EMR Serverlessは、これらのシナリオを見直して、よりシンプルなソリューションを提供します。アプリケーションの実行は、オープンソースフレームワークとバージョンを選択し、ジョブを送信するだけで済みます。
共有クラスター
長時間実行の共有クラスターを使用して複数のジョブを実行する場合、全体的なワークロードに基づいてクラスターを自動的にスケールアップ/ダウンするルールを設定します。
EMR Serverlessを使用すると、必要に応じてワーカーが各ジョブに割り当てられるため、ジョブが必要とするワーカーに対しての支払のみで済みます。また、各ジョブは、ジョブの実行時にAWSリソースにアクセスするために使用する必要があるIAMロールを指定できるため、キューとアクセス許可を管理するために複雑な構成をセットアップする必要はありません。
インタラクティブなワークロード
インタラクティブな分析をサポートする対話型のアプリケーションの場合、アプリケーションはあらかじめ初期化されており、ユーザーリクエストの処理をすぐに開始し、結果を返します。
EMR Serverlessでは、クラスターの管理を必要とせず、アプリケーションの起動時に、事前に初期化するワーカーの数を指定することができます。その後、ユーザーがリクエストを送信すると、事前に初期化されたワーカーを使用してユーザーのリクエストを直ちに処理することができます。ユーザーリクエストの処理に応じて、指定した最大同時接続数の上限の範囲でワーカーを自動的にサイジングします。
バージニアリージョンでPreviewが開始!
こちらから、すでにPreviewが開始しています。
まとめ
EMR Serverlessは、これまでのEMRで煩雑であったクラスタの管理やサイジングを不要にして、よりシンプルなエクスペリエンスの提供するのが目的です。EMR Serverlessの伸縮自在な仕組みや共有クラスタのワークロード処理にご活用ください。